HN
Hacker News • 13일 전
IMP 7
트랜스포머의 자기회귀 예측과 KV 캐시
대규모 언어 모델(LLM)이 토큰을 생성하는 핵심 원리인 '자기회귀 다음 토큰 예측'과 추론 속도를 획기적으로 높이는 'KV 캐시' 최적화 기법을 설명합니다. 이 과정을 통해 모델이 텍스트를 벡터로 변환하여 디코더 블록을 거치고 다음 단어를 예측하며, 이후 반복적인 연산을 줄여 긴 문장을 빠르게 생성할 수 있게 되는 원리를 이해할 수 있습니다.
LLM 트랜스포머 KV 캐시